前不久,通用汽车成为第一家在纽约市测试无人驾驶汽车的公司,以此确立其在无人驾驶领域的领导地位,为无人驾驶的商业化迈出了重要一步。近年来,谷歌、特斯拉、优步(Uber)、百度等科技公司都在不遗余力地发展无人驾驶技术。例如,谷歌研发的无人汽车在道路上累积行驶超过300万英里,而且在过去一年时间内,其模拟行驶的里程数也超过10亿英里。同时,传统汽车公司也纷纷加入无人驾驶技术的研发中。例如,宝马联手英特尔,计划在2017年让40辆宝马无人驾驶汽车进行路测。
无人驾驶汽车是一个复杂的、需要软硬件相结合的系统,其框架一般如图1所示。无人车主要分为三个模块:感知模块、高精度地图模块、驾驶行为决策模块。感知模块通过摄像头、激光雷达等传感器来感知周围的环境,为无人车的驾驶提供环境信息支撑;高精度地图模块则为无人车提供精确的定位与全局路径规划;驾驶行为决策模块则依据前两个模块提供的数据,由适当的模型来规划驾驶方案,统筹安排无人车的行驶。
图1 无人驾驶的基本框架
增强学习在无人驾驶中的应用
无人驾驶中最重要、最具挑战的模块就是行为决策。随着深度增强学习的兴起,越来越多的公司和研究者把增强学习应用到无人车的行为决策中。著名的机器学习方案提供商Mobileye公司就是其中的典型代表,其设计的车辆模型已经能自如地应对一些复杂的交通任务[1],如双向通道变线、复杂十字路口等场景。
Mobileye将行为决策分解成两个部分,即可学习部分和不可学习部分[1]。可学习部分是由增强学习[2]来决策行驶需要的高级策略,不可学习部分则是按照这些策略利用动态规划来实施具体的路径规划。
可学习部分是将无人车所处的环境映射成一系列抽象策略的过程。他们设计了一张策略选项图(option graph),主要包含无人车的加减速、转向以及对周围车辆的反应(如图2),并利用策略网络(policy network)来选择合适的应对选项。其中,策略网络在给定的车辆环境下,评估每一种应对的可能影响,从而选择最合适的策略。不可学习部分则是将学习到的抽象策略转化成对车辆的实际控制动作。该部分主要对车辆动作进行具体规划,检查抽象策略是否可执行,或者执行满足策略的动作,从而充分保证系统的安全性。
图2 策略选项图示例
在具体算法上,采用单独的深度神经网络(DNN)来表示选项图中每一个节点的策略网络,网络结构的区别在于每个节点的输入与输出的不同所带来的变化。策略网络则是采用增强学习的方法来训练,即用一个“回报”(安全完成任务是1,出现意外是-1)来评估每一个策略的最终影响,从而通过梯度下降让策略网络的评估逼近这一“回报”。
增强学习的优势
传统的基于规则的驾驶决策系统,只能采取非常保守的驾驶策略,需要人为设计精妙的规则来应对各种复杂情况。一旦设计的规则有所疏忽,后果将不堪设想。此外,传统方法假设无人车为驾驶环境中的唯一智能体,其他车辆、行人均是障碍物,忽视了车辆之间、车辆与行人之间的互动性。而增强学习则从人类的驾驶样本(包含了成功样本和失败样本)中学习相应的策略抉择,并将决策泛化到类似的驾驶情景中。同时,增强学习将无人驾驶拓展成多智能体决策问题,考虑了车辆之间的交互。
在无人驾驶中,深度增强学习等方法饱受争议的主要原因在于模型难以解释。策略决策都是由神经网络完成,即无人车的操控(车速、转向等)完全由一个黑箱模型输出,无法解释其推理过程,一旦系统发生故障也难以进行针对性的改进。而人为构建选项图之后,每个决策细分成对应动作,再由神经网络控制,决策的整个推理过程的可解释性大大增强。
目前,无人驾驶中的增强学习算法主要依赖模拟器进行训练和验证,其结果能否在真实环境中得到复现,还需要感知模块的正确输出。在有限的计算资源下,如何高效地识别和定位车辆、行人、交通线路等环境因素?如何在漏检误报的情况下依然保证车辆的稳定与安全? 同时,AlphaGo Zero[3]战胜AlphaGo[4]的工作也让我们思考:人类的驾驶操作是否一定是最佳的?无人驾驶中的增强学习算法是否也能从零开始,“无”中生“有”?这些问题仍然需要广大科研工作者和工程师的共同努力。
相信在可预见的将来,无人驾驶将会把人类从低效、重复的驾驶中解放出来,让人类用更多的时间和精力去思考和解决其他问题。期待这一天的到来! ■
参考文献:
[1] Shalev-Shwartz S, Shammah S, Shashua A. Safe, Multi-Agent, Reinforcement Learning for Autonomous Driving[OL]. arXiv preprint arXiv:1610.03295 (2016).
[2] Sutton R, Barto A. Reinforcement Learning: An Introduction[OL]. DOI: http://dx.doi.org/10.1016/S1364-6613(99)01331-5
[3] Silver D, Schrittwieser J. Mastering the game of Go without human knowledge[J]. Nature, 2017, 550: 354~359.
[4] Silver D, Huang A, Maddison C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484~489.
所有评论仅代表网友意见